iT邦幫忙

2023 iThome 鐵人賽

DAY 26
0
AI & Data

利用SeamlessM4T學習語音辨識架構及應用系列 第 26

DAY26 - Kaggle挑戰孟加拉語語音轉文字

  • 分享至 

  • xImage
  •  

挑戰Kaggle:Bengali.AI Speech Recognition-Recognize Bengali speech from out-of-distribution audio recordings

目標:建立一個語音模型,使用挑戰所提供的資料集(Massively Crowdsourced (MaCro) Bengali speech dataset)訓練,該資料集的音檔來自於印度與孟加拉募集約24000人所錄製的1200小時音檔。

動機:孟加拉語是全世界多人使用的語言之一,而不同的宗教或種族所說的孟加拉語會有所不同,Google針對孟加拉語的WER(字詞錯誤率)高達74%。

模型評估:使用Word Error Rate(WER)來評估,將於測試集中每個實例計算WER,並在每個領域的WER做平均且案自數做加權計算。最後,把每個領域的WER做平均(未加權)作為最後的分數。

繳交格式:除了Code之外,繳交的csv檔須包含兩個欄位,id and sentence

程式碼需求:

  • CPU Notebook <= 9 hours run-time
  • GPU Notebook <= 9 hours run-time
  • Internet access disabled
  • Freely & publicly available external data is allowed, including pre-trained models
  • Submission file must be named submission.csv

依現有SeamlessM4T模型預測孟加拉語

從Kaggle挑戰的數據中隨機挑選20個音檔,用SeamlessM4T的既有模型做S2TT(Speech-to-Text)翻譯,以其中一個音檔作範例,程式碼及音檔播放如下:

0000e711c2b1.wav

translated_text, _, _ = translator.predict(
                "./0000e711c2b1.wav",
                "s2tt",
                tgt_lang="ben"
                )

print(translated_text) 
#তিনি এবং তার মা তাদের পৈতৃক বাড়ি থেকে প্রতিবেশীদের দ্বারা অনেক তিরস্কার সহ্য করেন।

將預測後的文本與數據中的正確文本做WER(Word Error Rate)計算,WER數字越小表示翻譯結果越佳:

from jiwer import wer

sentence = "তিনি এবং তাঁর মা তাদের পৈতৃক বাড়িতে থেকে প্রতিবেশীদের দ্বারা অনেক তিরস্কার সহ্য করেন।"
predicted = "তিনি এবং তার মা তাদের পৈতৃক বাড়ি থেকে প্রতিবেশীদের দ্বারা অনেক তিরস্কার সহ্য করেন।"

error = wer(sentence, predicted)
print(error)       # 0.14285714285714285

將20個音檔的翻譯結果列表如下,:

id sentence predicted WER
0000e711c2b1 তিনি এবং তাঁর মা তাদের পৈতৃক বাড়িতে থেকে প্রতিবেশীদের দ্বারা অনেক তিরস্কার সহ্য করেন। তিনি এবং তার মা তাদের পৈতৃক বাড়ি থেকে প্রতিবেশীদের দ্বারা অনেক তিরস্কার সহ্য করেন। 0.1428571429
00036c2a2d9d কৃত্তিবাস রামায়ণ-বহির্ভূত অনেক গল্প এই অনুবাদে গ্রহণ করেছিলেন। কৃতীবাস রামায়ণ বহির্ভূত অনেক গল্প এই অনুবাদে গ্রহণ করেছিলেন। 0.375
00065f40df52 তিনি বিজয়নগর সাম্রাজ্যের বিরুদ্ধে এবং বিজাপুরের মুসলিম প্রতিবেশীদের বিরুদ্ধেও যুদ্ধ করেছিলেন। তিনি বিজয়নগর সাম্রাজ্যের বিরুদ্ধে এবং বিজাপুরের মুসলিম প্রতিবেশীদের বিরুদ্ধেও যুদ্ধ করেছিলেন। 0
0009b022c8ea এটি মূলত একটি মরুময় অঞ্চল। এটি মূলত একটি জলাভূমি অঞ্চল 0.4
000b54ab9fd0 সড়কটি বিহার-পশ্চিমবঙ্গ সীমান্ত অতিক্রম করে পশ্চিমবঙ্গ রাজ্যে প্রবেশ করে উত্তর দিনাজপুর জেলা হয়ে। সড়কটি বিহার-পশ্চিমবঙ্গ সীমান্ত অতিক্রম করে পশ্চিমবঙ্গ রাজ্যে প্রবেশ করে উত্তর দিনাজপুর জেলা হয়ে। 0
000d50ba853a মাঝে-মধ্যে অন্যান্য দেশের দলও এতে অংশ নেয়। মাঝে মাঝে অন্যান্য দেশের দলও এতে অংশ নেয়। 0.2857142857
000e1cb60185 বলকে অবমুক্ত করে পুনরায় শারীরিক ভারসাম্য ফিরিয়ে নিয়ে আনতে হবে। বলকে অবমুক্ত করে পুনরায় শারীরিক ভারসাম্য ফিরিয়ে আনতে হবে। 0.1
000f52d17f9c সাংস্কৃতিক উন্নয়নে অত্র প্রতিষ্ঠানটি অত্যন্ত সুপরিচিত। সাংস্কৃতিক উন্নয়নে অত্র প্রতিষ্ঠানটি অত্যন্ত সুপরিচিত। 0
000fb02d3aca যথারীতি সেখানেও সাফল্যের স্বাক্ষর রাখলেন সিদ্দিক। যথারীতি সেখানেও সাফল্যের স্বাক্ষর রাখলেন সিদ্দিক। 0
0012a4506205 তাদের তিন মেয়ে ছিল। তাদের তিন মেয়ে ছিল। 0
001580fa2919 এবার বুঝি আমার পালা? এ বার পরে আমাদের পালা। 1.25
001d6dc0fe48 তার বাবা লুৎফর রহমান সেখানে একটি বেসরকারি ফার্মে একজন নিরীক্ষণ কর্মকর্তা হিসেবে কর্মরত ছিলেন। তার বাবা লুতফুর রহমান সেখানে একটি বেসরকারি ফার্মে একজন নিরীক্ষণ কর্মকর্তা হিসেবে কর্মরত ছিলেন। 0.07142857143
001f20321efd তৃতীয় শতকে দখলে আসে উত্তর আফ্রিকা, আইবেরীয় উপদ্বীপ, গ্রিস এবং বর্তমান ফ্রান্সের দক্ষিণাংশ। তৃতীয় শতাব্দীতে দখল করে আসে উত্তর আফ্রিকা, আইবেরীয় উপদ্বীপ, গ্রীস এবং বর্তমান ফ্রান্সের দক্ষিণাংশ। 0.3076923077
0021147cdc91 আনোয়ারা বাহার চৌধুরী বুলবুল ললিতকলা একাডেমির প্রতিষ্ঠাতাদের অন্যতম ছিলেন। আনোয়ার বাহার চৌধুরী বুলবুল ললিতকলা একাডেমির প্রতিষ্ঠাতাদের একজন ছিলেন। 0.2222222222
00227b240a0e যেমন -পানিতে লবণের দ্রবণ। যেমন, পানিতে লবণের দ্রবণ 0.75
0022fe8aa136 তথাপি অনেক ঔপনিবেশিক সাম্রাজ্য সম্পর্কে বিভিন্ন ধারণা পোষণ করে। তবুও অনেক ঔপনিবেশিক সাম্রাজ্য সম্পর্কে বিভিন্ন ধারণা পোষণ করে। 0.1111111111
0024e6237533 এমনকি নামাযের সময়ও সঙ্গে রাখতেন। এমনকি নামাজের সময়ও সঙ্গে রাখতেন। 0.2
00287a416cb9 কুয়াশার একটি পর্দা প্রায়শই পশ্চিমে উষ্ণ এবং পূর্ব দিকে ঠান্ডা এর মধ্যে সংঘর্ষের সাথে থাকে। কুয়াশার একটি পর্দা প্রায়ই পশ্চিমে উষ্ণ এবং পূর্ব দিকে ঠাণ্ডার মধ্যে সংঘর্ষের সাথে থাকে। 0.2
0028aae2942e এখানে আছে একটি কুঠি বাড়ি যা নীলকুঠি নামে পরিচিত। এখানে আছে একটি কুঠী ঘর, যা নীল কুঠী নামে পরিচিত। 0.4444444444
002984bdef0b তার বাবা তাকে উত্তরাধিকার থেকে বঞ্চিত করেন। তার বাবা তাকে উত্তরাধিকার থেকে বঞ্চিত করেন। 0

總結

利用WER(Word Error Rate)來評估既有的SeamlessM4T的S2TT的功能,翻譯對象為隨機選擇20個Kaggle挑戰中提供的音檔,20個音檔翻譯中WER最小為0(表示翻譯結果完全正確),最大為1.25(表示翻譯結果差異非常大),平均下來WER為0.24,接下來看看能否藉由訓練集訓練SeamlessM4T來降低錯誤率。


上一篇
DAY25 - 如何訓練Conformer模型
下一篇
DAY27 - 基於SeamlessM4T結構替換自己的Transformer模型
系列文
利用SeamlessM4T學習語音辨識架構及應用30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言